61 research outputs found

    Tagging Occitan using French and Castillan Tree Tagger

    Get PDF
    International audiencePart-Of-Speech (POS) tagging, including tokenization and sentence splitting, is the first step in all Natural Language Processing chain. It usually requires substantial efforts to annotate corpora and produce lexicons. However, when these language resources are missing like in Occitan, rather than concentrate the effort in creating them, methods are settled to adapt existing rich-resourced languages tagger. For this to work, these methods exploit the etymologic proximity of the under-resourced language and a rich-resourced language. In this article, we focus on Occitan, which shares similarities with several romance languages including French and Castillan. The method consists in running existing morpho-syntactic tools, here Tree Tagger, on Occitan texts with first a translation of the frequent words in a rich-resourced language. We performed two distinct experimentations, one exploiting similarities between Occitan and French and the second exploiting similarities between Occitan and Castillan. This method only requires the listing of the 300 most frequent words (based on corpus) to construct two bilingual lexicons (Occitan/French and Occitan/Castillan). Our results are better than those obtained with the Apertium tagger using a larger lexicon

    Exploiting naive vs expert discourse annotations: an experiment using lexical cohesion to predict Elaboration / Entity-Elaboration confusions

    Get PDF
    International audienceExploiting naive vs expert discourse annotations: an experiment using lexical cohesion to predict Elaboration / Entity-Elaboration confusion

    Le projet RESTAURE

    Get PDF
    National audienceLe projet Ressources Informatisées et traitement automatique pour les langues régionales (RESTAURE) est un projet financé par l’ANR, entamé au mois de janvier 2015 pour une durée de 42 mois. Il comporte trois objectifs principaux :• acquisition et normalisation de ressources (corpus et lexiques) ;• développement d’outils pour l’acquisition et l’analyse de corpus ;• diffusion des résultats auprès du grand public.Les langues régionales de France concernées par le projet sont au nombre de trois : le picard, l’alsacien et l’occitan. Chacune de ces langues est représentée par un laboratoire partenaire : LESCLAP à Amiens pour le picard, LiLPa à Strasbourg pour l’alsacien, et CLLE-ERSS à Toulouse pour l’occitan. À cela s’ajoute un laboratoire en région parisienne, le LIMSI-CNRS, qui travaille sur les aspects de traitement automatique des langues.La motivation principale du projet est le manque de ressources informatisées pour les langues régionales de France, en particulier pour les trois langues concernées par le projet

    Analyse morphosyntaxique de l'occitan languedocien : l'amitié entre un petit languedocien et un gros catalan

    Get PDF
    International audienceDans cette étude, nous nous intéressons à la question de l'analyse morphosyntaxique de l'occitan. Nous utilisons Talismane, un logiciel par apprentissage supervisé, nécessitant des données annotées pour l'entraînement et optionnellement un lexique. Nous montrons dans cet article, qu'en l'absence de données annotées suffisantes pour l'occitan, il est possible d'obtenir de bons résultats (92%) en utilisant les données d'une langue étymologiquement proche, le catalan. Nous avons utilisé le corpus Ancora (500 000 formes) et un lexique occitan languedocien (250 000 entrées). Utiliser un corpus catalan de taille importante permet une amélioration de +3% par rapport au résultat obtenu avec le seul corpus d'entraînement occitan disponible à ce jour de 2800 formes. Abstract. Pos-tagging the Lengadocian dialect of Occitan: a little Lengadocian befriends a big Catalan. In this study, we examine the question of Occitan POS-tagging. We use Talismane, a supervised machine learning NLP tool, requiring annotated data for training and optionally a lexicon. We show that, with insufficient data for Occitan, it is possible to obtain good results (92%) by using data from an etymologically close language, in this case Catalan. We used the Catalan Ancora corpus (500,000 tokens) and an Occitan Languedocien lexicon (250,000 entries). Using the larger Catalan corpus improved results by +3% with respect to the result obtained using the only Occitan training corpus available to date (2,800 tokens). Mots-clés : traitement automatique des langues peu dotées, occitan, analyse morphosyntaxiqu

    Signalling Elaboration: Combining Gerund Clauses with Lexical Cues

    Get PDF
    International audienceIn this paper, we aim at automatically identifying Elaboration. This relation is particularly difficult to spot since it does not have prototypical markers. Our approach focuses on an ambiguous syntactic pattern, the gerund clause, combined with lexical cues. This approach allows us to detect few but accurate cases of inner sentence Elaborations in our corpus, validating the fact that lexical cues are relevant for this task

    BaTelÒc: A text base for the Occitan language

    Get PDF
    Language Documentation, as defined by Himmelmann (2006), aims at compiling and preserving linguistic data for studies in linguistics, literature, his- tory, ethnology, sociology. This initiative is vital for endangered languages such as Occitan, a romance language spoken in southern France and in several valleys of Spain and Italy. The documentation of a language concerns all its modalities, covering spoken and written language, various registers and so on. Nowadays, Occitan documentation mostly consists of data from linguistic atlases, virtual libraries from the modern to the contemporary period, and text bases for the Middle Ages. BaTelÒc is a text base for modern and contemporary periods. With the aim of creating a wide coverage of text collections, BaTelÒc gathers not only written literary texts (prose, drama and poetry) but also other genres such as technical texts and newspapers. Enough material is already available to foresee a text base of hundreds of millions of words. BaTelÒc not only aims at documenting Occitan, it is also designed to provide tools to explore texts (different criteria for corpus selection, concordance tools and more complex enquiries with regular expressions). As for linguistic analysis, the second step is to enrich the corpora with annotations. Natural Language Processing of endangered languages such as Occitan is very challenging. It is not possible to transpose existing models for resource-rich languages directly, partly because of the spelling, dialectal variations, and lack of standardization. With BaTelÒc we aim at providing corpora and lexicons for the development of basic natural language processing tools, namely OCR and a Part-of-Speech tagger based on tools initially designed for machine translation and which take variation into account.National Foreign Language Resource Cente

    Signaling Elaboration: Combining French Gerund Clauses with Lexical Cohesion Cues

    Get PDF
    International audienceDans cet article, nous nous focalisons sur la relation d'Élaboration en français, telle qu'elle est décrite dans le modèle théorique de la SDRT (Segmented Discourse Representation Theory), et sur son identification automatique. Selon la SDRT, une des sources d'information permettant d'inférer la relation d'Élaboration est basée sur l'existence d'un lien de subsomption entre les types des éventualités des segments à relier, indiquant que le type de la seconde éventualité est un sous-type de celui de la première dans la sémantique lexicale des éventualités ou grâce à des connaissances du monde. Nous proposons de contribuer à cette question en combinant un indice de la relation d'Élaboration, i. e. la construction syntaxique du gérondif, et des indices de cohésion lexicale. Notre objectif est d'identifier automatiquement des propositions gérondives qui sont des Élaborations en repérant des indices de cohésion lexicale entre la proposition principale et la proposition gérondive. Cette approche permet de détecter avec précision des cas d'Élaboration dans notre corpus, validant le fait que les indices de cohésion lexicale sont pertinents pour cette tâche

    Jochre, océrisation par apprentissage automatique : étude comparée sur le yiddish et l'occitan

    Get PDF
    National audienceTo create textual databases for less-resourced languages such as Yiddish and Occitan, we need tools and resources enabling high-quality OCR (optical character recognition). One of the main difficulties to overcome for these two languages is their considerable spelling variation (and dialectal variation for Occitan). It is generally admitted that a lexicon can improve OCR quality, but it is not clear how to take such variation into account within the lexicon. In this study, we use Jochre, a supervised machine learning OCR system. We compare several methods of generating and using lexicons. The best method allows us to attain an accuracy of 91.2% (words) and 97.4% (letters) for the Yiddish corpus, and 93.2% (words) and 97.9% (letters) for the Occitan corpus.Pour constituer des bases de textes pour des langues peu dotées comme le yiddish et l'occitan, il faut créer des outils et des ressources permettant une reconnaissance optique de caractères (océrisation) de qualité. Une des difficultés principales à surmonter pour ces deux langues est leur grande variation graphique (et dialectale pour l'occitan). Il est généralement admis qu'un lexique augmente la qualité de l'océrisation, mais la façon dont il faut tenir compte de la variation au sein du lexique n'est pas toujours clair. Dans cette étude, nous avons utilisé un logiciel d'apprentissage automatique supervisé, Jochre. Nous comparons plusieurs façons de constituer et d'utiliser les lexiques. La meilleure méthode nous permet d'atteindre une exactitude de 91,2 % (mots) et 97,4 % (lettres) sur le corpus yiddish, et de 93,2 % (mots) et 97,9 % (lettres) pour le corpus occitan

    Etude en corpus des réalisations linguistiques de la relation d'Elaboration

    Get PDF
    The purpose of our thesis is to study linguistic realizations of discourse relations, considering especially the relation of Elaboration. We get onto this study by taking into account models of discourse structure with an aim of linguistic description, linguistic formalization, corpus exploration and computational processing of this structure. Until now, there have been few studies based on Elaboration. This lack of interest as regards this relation can be explained by the fact that it does not have any prototypical marker. Nevertheless, this relation can often be found in texts and has a central role in discourse structure. To get through this study, we adopt a pragmatic-semantic approach of discourse structure, using the SDRT (Segmented Discourse Representation Theory) model. Confronting the onomasiologic approach (starting from the relation) and the semasiologic approach (starting from a marker or a cue) is totally relevant for the study of this relation, due to the absence of prototypical markers. Our objective is of two kinds. We propose linguistic descriptions of markers, cues, and combinations of cues in order to enrich a discourse model and to allow an automatic or semi-automatic identification of the relation. The first stakes are essentially empirical. We aim at improving the descriptive analysis for this relation. The second stakes are more applicative. Indeed, an automatic detection of discourse relations is a very challenging task for computational linguistics.Nous nous interrogeons dans cette thèse sur les réalisations linguistiques des relations de discours en considérant la relation d'Élaboration. Nous abordons cette étude en faisant appel aux approches et modèles de la structure du discours à des fins de description linguistique, de modélisation linguistique, d'exploration sur corpus et de traitement informatique de cette structure. La relation d'Élaboration a été jusqu'alors peu étudiée. On peut expliquer ce désintérêt pour cette relation par le fait que celle-ci n'a pas de marqueur prototypique. Pourtant cette relation est très présente dans les textes et occupe une place centrale dans les structures du discours. Nous adoptons, pour cette étude, une approche pragmatico-sémantique de la structure discursive en prenant pour modèle la Théorie des Représentations Discursives Segmentées (SDRT). L'absence de marqueurs types pour cette relation fait de son étude un champ d'observation propice à la confrontation des approches onomasiologique (partant de la relation) et sémasiologique (partant d'un marqueur ou d'un indice) que nous adoptons et articulons dans cette thèse. Notre objectif est double. Nous proposons des descriptions linguistiques de marqueurs, d'indices et de configurations d'indices pouvant enrichir un modèle du discours et permettre une identification automatique ou semi-automatique de la relation. Les premiers enjeux sont essentiellement empiriques. Nous souhaitons faire progresser des analyses descriptives sur cette relation. Les seconds enjeux sont plus applicatifs. Repérer automatiquement les relations de discours constitue un enjeu considérable pour des applications de traitement automatique des langues

    Structures énumératives en SDRT

    Get PDF
    National audienceLes structures énumératives (SE) ont été mises au jour par des approches du discours qui ont comparé structures de surface visuelles et structures sémantiques et dégagé des équivalences fonctionnelles entre elles (Luc et al., 1999 ; Luc et al., 2000 ; Ho-Dac et al., 2010 ; Ho-Dac et al., 2012). Les SE sont des structures organisatrices du texte. Elles sont souvent signalées par des éléments linguistiques et/ou visuels et leur reconnaissance guide l'interprétation du discours. Pourtant, ces structures ont reçu peu d'attention des théories sémantiques et pragmatiques du discours qui se focalisent généralement sur les marqueurs et le contenu linguistique plutôt que sur des informations de niveau textuel. Nous proposons de prendre en compte les structures énumératives dans une de ces théories, la SDRT (Asher & Lascarides, 2003), cadre théorique de plusieurs travaux toulousains sur le discours. L'objectif est d'intégrer les informations fournies par ces structures dans les règles de construction des représentations discursives qui reflètent le processus d'interprétation du discours. Nous poserons en particulier la question des relations de discours associées aux structures énumératives (Bras et. al 2008), et nous nous intéresserons à deux types de structures énumératives : les structures énumératives à deux temps (Porhiel, 2007 puis Vergez-Couret et. al 2008) et les structures énumératives amorcées par des SP du type " pour n raisons " (Vergez-Couret et. al 2011)
    corecore